在强化学习(RL)中,目标是获得最佳政策,最佳标准在根本上至关重要。两个主要的最优标准是平均奖励和打折的奖励。虽然后者更受欢迎,但在没有固有折扣概念的情况下,在环境中申请是有问题的。这促使我们重新审视a)动态编程中最佳标准的进步,b)人工折现因子的理由和复杂性,c)直接最大化平均奖励标准的好处,这是无折扣的。我们的贡献包括对平均奖励和打折奖励之间的关系以及对RL中的利弊的讨论之间的关系。我们强调的是,平均奖励RL方法具有将无折扣优化标准(Veinott,1969)应用于RL的成分和机制。
translated by 谷歌翻译
对于持续的环境,加固学习(RL)方法通常会以接近1的折扣因子最大化折扣奖励标准,以便近似于平均奖励(增益)。但是,这样的标准仅考虑长期稳态性能,忽略了瞬态状态的瞬态行为。在这项工作中,我们开发了一种优化增益的策略梯度方法,然后是偏差(这表明瞬态性能,并且重要的是从同等增益的策略中进行选择很重要)。我们得出表达式,可以为偏差的梯度及其预处理的Fisher矩阵进行采样。我们进一步设计了一种算法,该算法可以解决增益 - 然后偏置(BI级)优化。它的关键成分是RL特异性的对数屏障函数。实验结果提供了有关我们提案的基本机制的见解。
translated by 谷歌翻译